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Метод кластеризации данньїх 
на основе деревьев решений 


Досліджено застосування дерев розв'язків для розв'язання завдання кластерного аналізу. Розроблено 
метод кластерного аналізу, що дозволяє виконувати розбиття простору екземплярів на кластери, при 
використанні якого відсутня необхідність задання інформації про кількість кластерів та їх форму, що 
суттєво розширює можливість його застосування на практиці. Проведено експерименти з розв'язання 
завдань кластер-аналізу з використанням запропонованого методу. 
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Исследовано применение деревьев решений для задачи кластерного анализа. Разработан метод кластерного 
анализа, позволяющий вьшолнять разбиение пространства зкземпляров на кластерь, при использований 
которого отсутствует необходимость задания информации о количестве кластеров и их форме, что 
существенно расширяет возможности его применения на практике. Проведень зкспериментьт по решению 
задач кластер-анализа с использованиєм предложенного метода. 

Ключевьге слова: дерево решений, кластеризация, обучающая вьіборка, обработка данньїотх 


Вступ 


При розв'язанні завдань технічного діагностування, розпізнавання образів та про- 
гнозування актуальною є задача кластерного аналізу, що полягає в розбитті деякої 
вибірки даних на множину кластерів, які являють собою компактні області (таксони) 
в просторі ознак. Відомі різні методи кластерного аналізу | 1), 121, основним недоліком 
яких є необхідність попереднього задання вхідних параметрів, що настроюються (напри- 
клад, кількість кластерів, які повинні бути виділені). Це ускладнює їхнє застосування 
при обробці даних у реальних ситуаціях, коли немає достатньої інформації про дослі- 
джуваний об'єкт, процес або систему. 
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Тому актуальною є розробка нових методів кластеризації, вільних від зазначе- 
них недоліків, що забезпечують необхідну точність одержуваних розв'язків. Основним 
критерієм, якому повинні задовольняти методи, застосовувані для розв'язання даного 
завдання, є можливість поділу простору екземплярів на області з подібними харак- 
теристиками. До таких методів відноситься пошук на основі дерев розв'язків, які за 
рахунок своєї структури виконують розбиття простору рішень на області залежно від 
значень вхідних змінних |3-5|. У зв'язку із цим у даній роботі пропонується розв'я- 
зувати завдання кластерного аналізу на основі побудови дерев розв'язків. 

Відомі різні методи ідентифікації дерев розв'язків (03, САВТ, СНАГ, ОСЕЗТ, 
С5.0). Однак вони не враховують особливостей розв'язуваного завдання кластерного 
аналізу, пов'язаного з виділенням таксонів, що складаються з об'єктів з найбільш по- 
дібними характеристиками |3-71. 

Метою даної роботи є розробка методу кластерного аналізу, заснованого на побу- 
дові дерев розв'язків, який дозволить виконувати розбиття на кластери шляхом вве- 
дення рівномірно розподілених точок простору пошуку та дозволить скоротити вимоги 
до обчислювальних ресурсів при виконанні кластерного аналізу. 

Для досягнення поставленої мети необхідно розв'язати такі завдання: 

- огляд існуючих методів кластерного аналізу та виявлення їх переваг і недоліків; 

- вивчення основних понять, принципів і особливостей дерев розв'язків; 

- модифікація розглянутого методу відповідно до специфіки розв'язуваного зав- 
дання; 

- порівняння розробленого підходу з існуючими методами кластерного аналізу 
шляхом проведення експериментів 1 аналізу отриманих результатів. 

Постановка задачі. Нехай задана множина об'єктів О, кожний з яких характе- 
ризується множиною значень ознак Х . Тоді завдання кластерного аналізу полягає в 
тому, щоб на основі значень ознак Х розбити множину об'єктів О на т кластерів 
(підмножин) С,,С»,, ...,С, , так, щоб кожний об'єкт О, належав одній і тільки одній 


підмножині розбиття 1 щоб об'єкти, які належать одному кластеру, були подібними, у 
той час, як об'єкти, що належать різним кластерам, були різнорідними. 


1 Кластерний аналіз 


Кластерний аналіз полягає в розбитті даних на групи схожих об'єктів. Кожна 
група, що називається кластером, складається з об'єктів, які схожі між собою 1 які 
при цьому різні з об'єктами інших груп. 

Існує декілька видів методів кластерного аналізу, що відрізняються між собою 
допущеннями про форму кластерів, видом результуючого розбиття та параметрами, 
які повинні бути встановлені (наприклад, кількістю кластерів). 

Виключаюча кластеризація: дані групуються шляхом виключення одиниць даних. 
Якщо певний об'єкт належить одному кластеру, то він не може бути включений в інший 
кластер (до таких методів відноситься, наприклад, метод К -середніх). Основними недо- 
ліками такого підходу є: 

- необхідність задання кількості кластерів, на які необхідно розбити вхідну ви- 
бірку; 

- виконується пошук кластерів тільки заданої форми. 

Перекриваюча кластеризація: дані можуть входити у два або більш кластерів 
залежно від значення функції приналежності. До таких методів відноситься метод не- 
чітких С -середніх. При використанні цих методів також необхідно задавати кількість 
кластерів. 
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Ієрархічна кластеризація: на початку кластеризації кожний об'єкт розглядається як 
окремий кластер, після чого два найближчі кластери поєднуються в один і так далі. Метод 
закінчує свою роботу, коли всі дані об'єднані в один кластер або якщо виконалася умова 
закінчення роботи. Основним недоліком такого підходу є істотна обчислювальна склад- 
ність, що особливо помітно при обробці багатовимірних вибірок великого обсягу. 

Імовірнісна кластеризація має два різновиди: 

- методи, засновані на суміші багатовимірних нормальних розподілів; 

- методи інтелектуальної оптимізації, засновані на моделюванні колективного 
інтелекту суспільних живих істот. 

Оскільки даний підхід заснований на імовірнісному підході, то існує можливість 
незбіжності до оптимального розв'язку. 

Як видно з наведеної класифікації, кожний з розглянутих методів має певні недо- 
ліки, основні з яких є: необхідність задання кількості формованих кластерів, допу- 
щення про форму кластерів, велика обчислювальна складність. У зв'язку з цим можна 
зробити висновок про те, що застосування дерев розв'язків для кластерного аналізу є 
перспективним, однак дану техніку необхідно застосовувати з урахуванням особли- 
востей розв'язуваного завдання кластерного аналізу. 


2 Дерева розв'язків 


Дерева розв'язків являють собою спадну систему, засновану на підході «розді- 
ляй і пануй», основною метою якої є поділ дерева на взаємно неперетинні підмно- 
жини |3|, 15). Кожна підмножина являє собою підзадачу класифікації. 

Дерево розв'язків описує процедуру ухвалення рішення про приналежність пев- 
ного екземпляра до того або іншого класу. 

Дерево розв'язків є деревоподібною структурою, що складається з внутрішніх 1 
зовнішніх вузлів, зв'язаних ребрами |6). Внутрішні вузли - модулі, що приймають 
рішення, - розраховують значення функції розв'язку, на підставі чого визначають 
дочірній вузол, який буде відвіданий далі. Зовнішні вузли (листи), навпаки, не мають 
дочірніх вузлів і описують або мітку класу, або значення, що характеризує вхідні дані. 

У загальному випадку дерева розв'язків використовуються в такий спосіб. Спо- 
чатку передаються дані (звичайно це вектор значень вхідних змінних) на кореневий 
вузол дерева розв'язків. Залежно від отриманого значення функції розв'язку, викори- 
стовуваної у внутрішньому вузлі, відбувається перехід до одного з дочірніх вузлів. 
Такі переходи тривають доти, поки не буде відвіданий кінцевий вузол, що описує 
або мітку класу, або значення, зв'язане із вхідним вектором значень ознак. 


3 Кластеризація на основі побудови дерев розв'язків 


У пропонованому методі кластеризації даних на основі побудов дерев розв'язків 
у процесі синтезу дерев використовується традиційний підхід, що дозволяє розділити 
простір пошуку на кілька різних класів на основі функції пріоритетності. Однак, оскіль- 
ки при розв'язанні завдання кластеризації не задані класи екземплярів, то пропонує- 
ться вводити неіснуючі рівномірно розподілені екземпляри для проведення кластерного 
аналізу. За рахунок введення таких екземплярів можна умовно розбити вхідну вибірку, 
як мінімум, на два класи: існуючі екземпляри й неіснуючі екземпляри, за рахунок чого 
можна виконувати класифікацію з використанням дерев розв'язків. При цьому такий 
підхід дозволяє виділити ті області, які являють собою кластери, оскільки в цих облас- 
тях більше перебуває реальних екземплярів, ніж штучно доданих. Далі представлені 
основні особливості пропонованого методу. 


«Штучний інтелект» 172012 231 


Олійник А.О., Гофман Є.О., Субботін С.О. 


При побудові дерева розв'язків для кожної ознаки з п -вимірного простору (п - 
кількість ознак, що характеризують навчальну вибірку) метод розраховує індекс Джині 
для розбиття дерева розв'язків, використовуваний як критерій пріоритетності альтер- 
нативних можливих варіантів розбиття за ознакою. Тобто поточний вузол дерева розби- 
вається за ознакою, за якою отримано краще (найменше) значення індексу Джині. 

У кожному вузлі відбувається розбиття за певною ознакою на ліву й праву гілки 
(області обмежені попередніми розбиттями). Таким чином, даний етап припускає вико- 
нання наступної послідовності дій: 

- установити лічильник ознак в одиницю: 7 - І; 

- для кожного конкретного значення ознаки Х, розраховується індекс Джині; 

- установити: і з і - 1; 

- якщо і 2 п, то виконати перехід до розрахунків індексу Джині для наступної 
ознаки; 

- зберегти краще розбиття для поточного вузла; 

- виконати розбиття для лівого нащадка; 

- виконати розбиття для правого нащадка. 

Принциповою особливістю етапу обчислення індексу Джині є те, що індекс Джині 
для розбиття обчислюється для значень ознак і деяких рівномірно розподілених штучно 
доданих К точок. Кожне значення ознаки Х, розглядається як можливе розбиття, 


тому індекс Джині розраховується для кожного значення. 
Нехай є множина М з відповідною потужністю М | . Нехай додатково до цієї 


множини додається множина К рівномірно розподілених точок потужності Кк | з М | 


(кількість додаткових точок успадковується від батьківського вузла). Кожне значення 
хєМ розбиває множину на дві області. 
Нехай у лівій області відносно поточної точки х є М знаходяться області з К. 


та т, точок, значення яких менше заданого значення, у правій області знаходяться 
та З М -т, та К. З Кк - ко точок відповідно. Тоді розрахувати Кк, та К. можна 
таким чином: 

ІКЦ ж -- поіо( М )) 
тах( М ) - тіо( М )/ 

ІК |(тах( М) - х) 
тах( М ) - тіо( М )/ 
де х - конкретне значення ознаки; тіп(М ) - мінімальне значення з М, плах(М ) - 


К- ту Ім |- Кан 


ко -|м|-К, - 


максимальне значення в М. Така формула означає, що якщо в межах між піп(М ) 1 
тах(М ) знаходиться |К| рівномірно розподілених точок, тоді в інтервалі між піїп(М ) 
і поточним значенням х знаходиться п, точок. 


У загальному випадку індекс Джині для розбиття за х можна розрахувати за фор- 
мулою: 
рн Ки ез т, Ки 33 та 
Укрімібб комі" 
де індекси Джині для підмножин х- 1 х-- розраховуються в такий спосіб: 
2 2 
Конті, 
2 
(к.. з т.) 
де З позначає відповідну підмножину (-- або --). 


5х 


ба -1 


, 
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Після того як отримано краще розбиття, воно переноситься в поточний вузол, 
його правий і лівий нащадки успадковують множину К, що включає п, та п, точок 
відповідно. 

Обчислення розбиттів триває доти, поки: 

, більшій за задане міні- 


- поточний вузол містить екземпляри в кількості М 


мальне значення. Тобто даний параметр є єдиним вхідним параметром, що настрою- 
ється, для пропонованого методу; 

- поточна множина даних містить групи з як мінімум двома точками (при цьому 
точки з однаковими значеннями групуються на початковому етапі). 

Таким чином, розбиття вузла повинно тривати при виконанні хоча б однієї з 
даних умов. А якщо ні, то розбиття на даній гілці повинне завершитися. 

Виходячи з вищесказаного, можна відзначити, що основною особливістю запро- 
понованого методу є введення додаткових рівномірно розподілених екземплярів, що 
дозволяє виконувати класифікацію, як мінімум, для двох класів екземплярів. При цьому 
основною перевагою запропонованого методу є те, що немає необхідності задання 
інформації про кількість кластерів, їх форму та ін., що суттєво розширює можливість за- 
стосування розробленого методу кластерного аналізу на основі побудови дерев розв'язків. 


4 Експерименти та результати 


Запропонований метод кластерного аналізу на основі побудови дерев розв'язків 
був програмно реалізований у середовищі пакета Майар 7.0. 

За допомогою розробленого програмного забезпечення 1 вбудованих засобів па- 
кета Майаб 7.0 проводилися експерименти, які полягали в розбивці на кластери штучно 
сформованих вибірок за допомогою розробленого методу, а також за допомогою мето- 
дів кластеризації: К -середніх і агломеративного ієрархічного методу. 

Вибірки формувалися випадковим чином на основі нормального розподілу з різ- 
ними математичними очікуваннями та дисперсіями. Було сформовано чотири двови- 
мірні вибірки, що відрізняються між собою ступенем перетину кластерів. Параметри 
розподілів, на підставі яких формувалися вибірки, наведено в табл. 1. Кожна вибірка 
складалася з чотирьох кластерів, кожний з яких, у свою чергу, складався з 200 екзем- 
плярів, що характеризуються двома ознаками. Як можна бачити з табл. І, друга й 
четверта вибірки характеризуються більшим перетином кластерів порівняно з першою 
та третьою вибірками. 


Таблиця 1 - Параметри розподілів вибірок 


.. . |Кла- Х Х, . | |Кла- о Х» 
Вибірка Вибірка 
стер ІМ(Х) Др(Х) | М(Х)|р(Х) стер  |М(Х) |Д(Х) |М(Х) |Д(Х) 
1 1 0 3 0 3 3 1 0 3 0 3 
2 15 3 15 3 2 0 3 23 4 
3 15 З 0 3 3 16 3 23 4 
4 0 3 15 3 4 25 5 0 3 
7 1 0 3 0 3 4 1 0 3 0 3 
2 13 3 13 3 2 0 3 12 3 
3 13 3 0 3 3 12 3 0 3 
4 0 3 3 4 3 
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Як критерій порівняння результатів роботи досліджуваних методів кластеризації 
використовувалася помилка класифікації: 
ром 
є що-) ге5,, 

іч 
де ге5, - 1, якщо сій5їег з СПизтег, в іншому випадку - ге5; - 0; сійзіег; - 
номер кластера, до якого віднесений і-й об'єкт за допомогою заданого методу клас- 
терного аналізу, сійзтег - номер кластера, до якого відноситься /-й об'єкт у заданій 


навчальній вибірці. 
Результати роботи відомих методів кластеризації та запропонованого методу 
представлені в табл. 2. 


Таблиця 2 - Результати роботи методів кластерного аналізу 


Значення помилки 


зМекод Вибірка 1 | Вибірка 2 | Вибірка 3 | Вибірка 4 
Метод К -середніх 0,0113 0,0288 0,0050 0,0288 
Ієрархічний агломеративний метод 0,0138 0,0325 0,0075 0,0300 


Метод кластерного аналізу 


з 0,0043 0,0215 0,0041 0,0219 
на основі дерев розв'язків 


Виходячи з результатів експериментів, представлених у табл. 2, можна бачити, що 
запропонований метод характеризується меншою помилкою класифікації порівняно з 
методами: К -середніх та ієрархічним агломеративним. При цьому найбільша помилка 
класифікації спостерігалася для всіх методів при аналізі другої та четвертої вибірок, 
для яких характерне суттєве перетинання кластерів. 

Також важливо відзначити, що для роботи запропонованого методу не треба було 
задавати кількість вихідних кластерів, на відміну від розглянутих відомих методів. 
При цьому кількість кластерів, на яку розбивав вхідну вибірку розроблений метод, була 
правильною для всіх вибірок. 


Висновки 


У статті вирішено актуальне завдання автоматизації кластеризації на даних на 
основі використання дерев розв'язків. 

Наукова новизна роботи полягає в тому, що розроблено метод кластерного ана- 
лізу, який заснований на побудові дерев розв'язків, що дозволяє виконувати розбиття на 
кластери шляхом введення рівномірно розподілених точок простору пошуку та скоро- 
чує вимоги до обчислювальних ресурсів при виконанні кластерного аналізу. Крім того, 
при використанні запропонованого методу немає необхідності задання інформації про 
кількість кластерів та їх форму, що суттєво розширює можливість його застосування 
на практиці. 
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А.А. ОЇйпук, Уе.А. Сотап, 5.А. 5ЗифБоїп 


СПизтетіпо Метоа Вазеа оп Ресізіоп Ттее5 

Тре ргобіета ої сІцзіег апаїузія 15 гафег асіша! м/Ппіе 50Їуїпе, Ше ргобіетя ої іесппісаї 
аФаєпозбися8, райегп гесоєпійоп апа Гогеса5ійпя, у/пісП 15 зріййпє 50пте Чака оп Фе 5еї ої 
сТабіегя Шаг герге5епі а соппрасі агеа іп (пе Геаїиге 5расе. ТПеге аге уагіоця пе Шпоая ої сіцяіег 
апаЇузія 11, Г21, Фе плаїп Фхадуапіаєє ої епі 15 пес іо рге-а5к іприс сопієигабіе 
рагатеїегя (е.є. пигабег ої сІшяіег8я їо Бе зеЇесівад). Трі5 сопаріїсагез Шеїг цзаєе апа їп Ше 
ргосезкіпе ої даіа їп геаї 5ішайоп5 у/реге ШДеге 15 по 5ийіїсіепі іпіогпайоп арбоці ап обіесі, 
ргосез85 ог 5узіет. 

50 її 15 ішпрогіапі (0 деуеїор пеуу сіц5(егіпє піеїрод5, у/рбісі 15 їее от ШПебе 
азадуапіаєєзя, апа ргоуїде Ше песез85агу ассигасу ої ре 50Г/айоп5. ТПе таїп сгі(егіоп раї 
тикзі Бе зай5Пед Ше птешШодз и5ед їог 50Їміпеє Фіз ргобіета 15 Ше роє5161Шіу ої 5ерагайпе 
Фе 5расе ої іп5іапсез їп Ше агеа уу/іїБ 5іпаийаг сПагасіегівйся. Тре5е ттефодя іпсіцде 
зеагсп Ба5ей оп десізіоп (тее5, уУрісП дше 10 145 5(гисіиге регіогт рагийопіпе ої Ше зрасе 
ої 50ийопз5 їо Ше Пед аз а Типсйоп ої Ше іприї уагіабіез (3-5). ТРрегеїоге їп Щі8 рарег, 
ме ргоробе іо 50Іуе Ше ргобіет ої сіцяег апаЇузі5 Базед оп Ше соп5кгисйоп ої десізіоп 
(гее5. 

Треге аге уагіойз5 паеШподйз Їог Ше ідепіійсайоп ої десізіоп (ее5 (П23, САКТ, 
СНАГФ, ОСЕЗТ, С35.0). Номемег, ШФеу Фо пої каКе їпіо ассошпі фе ресиПагійез ої Ше 
ргобіет ої сіцяег апаЇубія геіатед о Ше еуоїийоп ої іахоп5 соп5і5йпе ої обіесія мір Ше 
тобі 5іпаг срагастегі8йся |3-6. 

Тре ригробе ої із рарег 15 (о деуеіор а пеїоа ої сІияіег апаїузі5 Базед оп Ше 
соп5ігисйоп ої десізіоп ігее5, упісп мії аПому рагийопіпе їпіо сіц5їег5 Бу іпігодисіпе 
ипіїоги у ді5(гібитед роїпіз ої Ше зеагсі 5расе апа гедисе Ше детапаз оп сотриайопаї! 
тезоцпгсе8 мПеп регіогпапя сТизіег апа!убіз. 
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Геї затріе ої обіесія О, еасп срагасіегігей бу а 5еї ої айтірие уаїшез Х . Треп Фе 
ргобіета ої сІцз(ег апаЇузія Пе8 їп ре Гасі Баг оп Ше Базі5 ої уаїце5 ої айтібиіе5 Х, опе- 
ріс 5еї ої обіесі5 О іп т сІи5іегя (5иб5еїз) С, С.,..., С, , 50 "Баг еасПп обіесі О, Беіопеед 


іо опе апа опіу опе 5иббег ої Ше рагийоп, апа Шаг Ше обіесія БбеЇопе-Іупє їо Ше зате 
сПиз(ег аге 5іпайаг, мпШе, а5 обіесів Шаг Беїопе, (0 ФіНегепі сІцзіег аге д1551пШаг. 

То асріеуе Фіз яса! Ше ГоПомтпє (азК5 аге 50І/уеа: 

- теміеуху ої ехізйпє теподзя ої сіцзіег апаЇузія апа ідепійсайоп ої ШФеїг 5їтепеїр5 
апд утеаКпез5е5; 

- Ше 5 иду ої Гапдатепіа! сопсері5, ргіпстріез апа сПагасіегіз(іся ої десізіоп ітее5; 

- тодійсацоп ої Фе тецоа іп ассогдапсе упр Фе зресійс ргобіет (о Бе 50І1уей; 

- а сотрагі5оп ої Фе деуеіоред арргоасі мі ехі5цпє теїродя ої сІизіег апа!у5і8 
Бу сопдисіпє ехрегітепіз апа апаїуліпе гезиіїв. 

Пп Фіз рарег, Ше ргобіет ої аціотайоп Їог Чаїа сІцяіегіпе Ба5ед оп десі81оп (гее5 15 
50Їуед. 

Тре зсіепіййс поуейу ої ре у/огК 15 Шаї Ше плеФоа ої сІизіег апа!узіз, мПпісП 15 Базей 
оп Бийдпе, десізіоп ігее5 Факс аПом/8 о ярі їпіо сІа8іегя Бу іпітодисіпе ппійогт у Фі5ібисед 
роіпі5 ої 5еагсп зрасе апа гедисе5 Ше гедиігетепіс Їог согаршіайопа! гезоцгсеє ууреп 
регіогтіпе, сІи5іег апаЇузі8, 15 ойегед. Пі аддїйоп, уупеп изіпє Фе ргоро5ед плефой 10 15 пої 
песез5агу са5К іпіогтайоп абоші Ше пипабег ої сіц5(его апа Шеїг 5раре, м/пісі 5іспійсапЧу 
ехіепдз Фе роззірійу ої 15 арріпсацоп їп ргасбїсе. 


Стаття надійшла до редакції 19.12.2011. 
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